tg-me.com/machinelearning_interview/1745
Last Update:
Google Research ΠΎΠΏΡΠ±Π»ΠΈΠΊΠΎΠ²Π°Π» ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠ½ΡΡ ΡΡΠ°ΡΡΡ Β«Itβs All ConnectedΒ», Π² ΠΊΠΎΡΠΎΡΠΎΠΉ ΠΏΡΠ΅Π΄Π»Π°Π³Π°ΡΡ ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ ΠΏΡΠΎΠ±Π»Π΅ΠΌΡ ΠΊΠ²Π°Π΄ΡΠ°ΡΠΈΡΠ½ΠΎΠΉ ΡΠ»ΠΎΠΆΠ½ΠΎΡΡΠΈ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΠΎΠ² Π² ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠ΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠ΅ΠΉ : ΡΡΠ΅ΠΉΠΌΠ²ΠΎΡΠΊ Miras, ΠΊΠΎΡΠΎΡΡΠΉ ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ ΠΎΠ½Π»Π°ΠΉΠ½-ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΡ, ΡΠΏΡΠ°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡΡΡ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π² Π΅Π΄ΠΈΠ½ΡΡ ΡΠΈΡΡΠ΅ΠΌΡ, ΡΡΠΎ Π² ΠΈΡΠΎΠ³Π΅ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΡΠΎΠ·Π΄Π°Π²Π°ΡΡ Π±ΠΎΠ»Π΅Π΅ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΡΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ.
Miras β ΡΡΠΎ 4 ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½ΡΠ°: Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΠ° ΠΏΠ°ΠΌΡΡΠΈ, ΡΠ΅Π»Π΅Π²Π°Ρ ΡΡΠ½ΠΊΡΠΈΡ (ΡΠΌΠ΅ΡΠ΅Π½ΠΈΠ΅ Π²Π½ΠΈΠΌΠ°Π½ΠΈΡ), ΡΠ΅Π³ΡΠ»ΡΡΠΈΠ·Π°ΡΠΈΡ ΡΠ΄Π΅ΡΠΆΠ°Π½ΠΈΡ ΠΈ Π°Π»Π³ΠΎΡΠΈΡΠΌ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ. Miras ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΈΡΠΎΠ²Π°ΡΡ Ρ loss-ΡΡΠ½ΠΊΡΠΈΡΠΌΠΈ (Huber loss Π΄Π»Ρ ΡΡΡΠΎΠΉΡΠΈΠ²ΠΎΡΡΠΈ ΠΊ Π²ΡΠ±ΡΠΎΡΠ°ΠΌ) ΠΈ ΡΠ΅Π³ΡΠ»ΡΡΠΈΠ·Π°ΡΠΈΠ΅ΠΉ (KL-Π΄ΠΈΠ²Π΅ΡΠ³Π΅Π½ΡΠΈΡ, Elastic Net).
Π‘ ΠΏΠΎΠΌΠΎΡΡΡ Miras Π±ΡΠ»ΠΈ ΡΠΎΠ·Π΄Π°Π½Ρ 3 ΡΠ΅ΡΡΠΎΠ²ΡΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ β Moneta, Yaad ΠΈ Memora. Moneta ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅Ρ Lp-Π½ΠΎΡΠΌΡ Π΄Π»Ρ Π±Π°Π»Π°Π½ΡΠ° ΠΌΠ΅ΠΆΠ΄Ρ Π·Π°ΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΠ΅ΠΌ ΠΈ ΡΡΡΠΎΠΉΡΠΈΠ²ΠΎΡΡΡΡ, Yaad ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡΡΠ΅Ρ L1 ΠΈ L2 ΡΠ΅ΡΠ΅Π· Huber loss, Π° Memora ΠΏΡΠΈΠΌΠ΅Π½ΡΠ΅Ρ Softmax Ρ KL-ΡΠ΅Π³ΡΠ»ΡΡΠΈΠ·Π°ΡΠΈΠ΅ΠΉ.
Π ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠ°Ρ
ΡΠ΅ΡΡΠΎΠ²ΡΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ±ΠΎΡΠ»ΠΈ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΡ ΠΈ ΡΠΎΠ²ΡΠ΅ΠΌΠ΅Π½Π½ΡΠ΅ RNN Π½Π° Π·Π°Π΄Π°ΡΠ°Ρ
ΡΠ·ΡΠΊΠΎΠ²ΠΎΠ³ΠΎ ΠΌΠΎΠ΄Π΅Π»ΠΈΡΠΎΠ²Π°Π½ΠΈΡ ΠΈ ΠΏΠΎΠΈΡΠΊΠ° ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ Π² Π΄Π»ΠΈΠ½Π½ΡΡ
ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΠ°Ρ
. ΠΠ° ΡΠ΅ΡΡΠ΅ Β«ΠΈΠ³ΠΎΠ»ΠΊΠ° Π² ΡΡΠΎΠ³Π΅ ΡΠ΅Π½Π°Β» (8K ΡΠΎΠΊΠ΅Π½ΠΎΠ²) Moneta Π΄ΠΎΡΡΠΈΠ³Π»Π° ΡΠΎΡΠ½ΠΎΡΡΠΈ 98.8%, ΡΠΎΠ³Π΄Π° ΠΊΠ°ΠΊ Mamba2 β Π»ΠΈΡΡ 31%.
Π‘ΡΠ°ΡΡΡ Π½Π΅ ΠΏΡΠΎΡΡΠΎ ΡΠ΅ΠΎΡΠ΅ΡΠΈΡΠ΅ΡΠΊΠΎΠ΅ ΠΈΠ·ΡΡΠΊΠ°Π½ΠΈΠ΅ β ΡΡΠΎ ΠΏΡΠ°ΠΊΡΠΈΡΠ΅ΡΠΊΠΎΠ΅ ΡΡΠΊΠΎΠ²ΠΎΠ΄ΡΡΠ²ΠΎ Π΄Π»Ρ ΡΠ°Π·ΡΠ°Π±ΠΎΡΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. Π§Π΅ΡΠΊΠ°Ρ ΡΡΡΡΠΊΡΡΡΠ° Miras ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ ΡΠΈΡΡΠ΅ΠΌΠ°ΡΠΈΠ·ΠΈΡΠΎΠ²Π°ΡΡ ΡΡΡΠ΅ΡΡΠ²ΡΡΡΠΈΠ΅ ΠΏΠΎΠ΄Ρ
ΠΎΠ΄Ρ ΠΈ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΈΡΠΎΠ²Π°ΡΡ Ρ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½ΡΠ°ΠΌΠΈ. ΠΠ°ΠΏΡΠΈΠΌΠ΅Ρ, Π·Π°ΠΌΠ΅Π½Π° ΡΠ΅Π³ΡΠ»ΡΡΠΈΠ·Π°ΡΠΈΠΈ Π½Π° Elastic Net ΠΈΠ»ΠΈ Bregman divergence ΠΌΠΎΠΆΠ΅Ρ ΡΠ»ΡΡΡΠΈΡΡ ΡΠΏΡΠ°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡΡΡ Π² Π½ΠΈΡΠ΅Π²ΡΡ
Π·Π°Π΄Π°ΡΠ°Ρ
.
Miras β ΡΠ°Π³ ΠΊ Π±ΠΎΠ»Π΅Π΅ ΠΎΡΠΌΡΡΠ»Π΅Π½Π½ΠΎΠΌΡ ΠΏΡΠΎΠ΅ΠΊΡΠΈΡΠΎΠ²Π°Π½ΠΈΡ Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡ. ΠΡΠ»ΠΈ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΡ β ΡΡΠΎ Β«ΠΊΡΠ²Π°Π»Π΄Π°Β» Π΄Π»Ρ ΠΌΠ°ΡΡΡΠ°Π±Π°, ΡΠΎ ΠΎΠΏΠΈΡΠ°Π½Π½ΡΠΉ Π² ΡΡΠ°ΡΡΠ΅ ΠΏΠΎΠ΄Ρ
ΠΎΠ΄ Google Research - Ρ
ΠΈΡΡΡΠ³ΠΈΡΠ΅ΡΠΊΠΈΠΉ ΠΈΠ½ΡΡΡΡΠΌΠ΅Π½Ρ, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄ΡΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ Π½Π°ΡΡΡΠ°ΠΈΠ²Π°Π΅ΡΡΡ ΠΏΠΎΠ΄ ΠΊΠΎΠ½ΠΊΡΠ΅ΡΠ½ΡΡ Π·Π°Π΄Π°ΡΡ.
@ai_machinelearning_big_data